Extraktion relationaler Daten aus Texten

نویسندگان

  • Jana Diesner
  • Kathleen M. Carley
چکیده

Daten für netzwerkanalytische Projekte können explizit oder implizit in natürlichsprachlichen, unoder halbstrukturierten Texten enthalten sein. In dieser Situation ermöglichen Verfahren zur Relationsextraktion die Gewinnung oder Anreicherung von Netzwerkdaten. Die folgenden Beispiele verdeutlichen Einsatzgebiete für diese Familie von Methoden: Analysten aus Wirtschaft und Verwaltung entnehmen Berichten von und über Organisationen Angaben zu deren Zusammensetzung, Effizienz und Entwicklung (Corman et al. 2002; Krackhardt 1987). Kognitionsund Sozialwissenschaftler untersuchen auf der Grundlage von Interviews, wer welche Themen anspricht und wie in Verbindung setzt (Carley und Palmquist 1991; Collins und Loftus 1975). Journalisten und Analysten durchsuchen Meldungen und Archive nach Beteiligten, Gegenstand, Grund, Verlauf, Ort, Zeit, und Zusammenhängen von Ereignissen (Gerner et al. 1994; van Cuilenburg et al. 1986). Marktforscher analysieren Kundenbewertungen um herauszufinden, welche Marken und Produkte welche Empfindungen hinterlassen (Wiebe 2000). Internetforscher verfolgen die akteursbezogene Diffusion von Themen im Internet (Adar und Adamic 2005; Kleinberg 2003). Nutzer senden Suchmaschinen Anfragen, deren Beantwortung Informationen von mehr als einer Webseite bedarf (Berners-Lee et al. 2001; Brin 1999). All diesen Aufgaben ist gemeinsam, dass sie gelöst werden können, indem die jeweils relevanten Informationen (Knoten) und deren Verbindungen (Kanten) aus Texten herausgefunden, wiedergegeben und netzwerkanalytisch ausgewertet werden (McCallum 2005). In diesem Kapitel erläutern wir, unter welchen Bedingungen das Extrahieren relationaler Daten aus Texten sinnvoll ist, welche Verfahren dafür zur Verfügung stehen, und zeigen Grenzen und bislang ungelöste Probleme der Methodik auf.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Automatische Extraktion von Fachterminologie aus kunst-historischen Volltexten

Mit Hilfe eines algorithmisch arbeitenden Verfahrens können fachterminologische Mehrwortgruppen aus elektronisch vorliegenden Texten identifiziert und extrahiert werden. Inhaltlicher Schwerpunkt stellt die Einbindung von Funktionswörtern des deutschen Sprachgebrauchs in den Extraktionsalgorithmus dar. Als Datengrundlage dieser Arbeit dienten kunsthistorische Lexikonartikel des Reallexikons zur ...

متن کامل

Aufbau eines Agrardatenzentrums in der Bundesanstalt für Landwirtschaft und Ernährung (BLE)

Der Datawarehouse-Prozess dient zur Konsolidierung der Datenhaltungssysteme. Die Daten werden von verschiedenen Datenquellen bereitgestellt und im ETL-Prozess (Extraktion, Transformation, Laden) in das Datawarehouse geladen. Die Erstellung eines Datawarehouse basiert auf zwei Grundideen: zum einen der Integration von Daten aus verteilten und unterschiedlich strukturierten Datenbeständen und zum...

متن کامل

mArachna: Entwicklung von Wissensrepräsentationsmechanismen für die Mathematik

Die automatische Extraktion von Wissen aus natürlichsprachlichen Texten ist eine große technische Herausforderung, die – betrachtet man die Gesamtheit aller möglichen schriftlichen Quellen – heute noch als weitgehend ungelöst gelten muss. Wissenschaftliche und insbesondere mathematische Texte zeichnen sich jedoch durch einen höheren Grad der Strukturiertheit aus, und sie verfolgen stets das Zie...

متن کامل

Verbesserte Visualisierung der Koronararterien in MSCT-Daten mit direkter Vergleichbarkeit zur Angiographie

Kurzfassung. In diesem Beitrag stellen wir neue, automatisierte Verfahren zur Visualisierung der Koronararterien einerseits und für eine direkte Vergleichbarkeit mit konventionellen Angiogrammen andererseits vor. Unser Ansatz umfasst Methoden für die automatische Extraktion des Herzens aus kontrastverstärkten CT-Daten, sowie für die Maskierung grosser kontrastmittelgefüllter Kavitäten des Herze...

متن کامل

Ontologie-basiertes Web Mining

Zusammenfassung: Die Erkennung und Extraktion relevanter Daten im Internet wird zunehmend durch den rapiden Zuwachs an Dokumenten erschwert. Bestehende Ansätze, denen aktuelle Suchmaschinen in der Regel folgen, begegnen den anfallenden Datenmengen mit immer neuer Rechenleistung. Diese Vorgehensweise wird sich jedoch nicht beliebig fortsetzen lassen. In dieser Arbeit stellen wir ein fokussiertes...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2010